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基于 逻辑 一 致 性 判定 的 广义 不 透明 谓词 检测 方法 
史 大 伟 ， 周 季 殊 ， 徐 良 华 


(江南 计算 技术 研究 所 ,江苏 无 锡 214083) 


摘 要 : 不 透明 谓词 是 一 类 轻 量 级 的 代码 混 清 方 法 ， 能 以 单 向 的 执行 复杂 度 对 抗 程序 的 逆向 分 析 。 广 义 不 透明 谓词 扩 
展 狭义 不 透明 谓词 的 值 恒定 属性 至 远 辑 恒定 属性 ， 已 经 应 用 于 部 分 恶意 代码 中 以 提升 抗 查 杀 能 力 。 为 消除 不 延明 谓词 
对 程序 恶意 性 判定 的 影响 ， 以 广义 不 透明 谓词 后 趋 依赖 的 属性 为 依据 ， 结 合 逻 辑 恒 定 判 定 ， 提 出 了 基于 届 辑 一 致 性 的 
广义 不 迁 明 谓词 检测 方法 。 通 过 静态 分 析 提 取 谓 词 前 置 条 件 约束 、 后 趋 逻 辑 约束 和 谓词 判定 表达 式 ， 以 相交 基本 块 搜 
寻 初 得 谓词 ， 并 依据 约束 求解 方法 判定 广义 不 迁 明 谓词 。 构 造 原型 系统 并 进行 测试 ， 结 果 表 明 该 方法 能 精准 高 效 地 检 
测 出 恶意 代码 中 的 不 透明 谓词 。 
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Generalized opaque predicates detecting method based on logical consistency 
Shi Dawei, Zhou Jixuan, Xu Lianghua 
(Jiangnan Institute of Computing Technology, Wuxi Jiangsu 214083, China) 


Abstract: Opaque predicate is a lightweight obfuscation method which holds partial observability and is used to impede reverse 


engineering. Generalized Opaque Predicate extends the property of narrow Opaque Predicate by turning fixed value to fixed 


logic, and it is applied in malware. In order to eliminate the disturbance introduced by opaque predicates during malware 
identifying, a generalized opaque predicate detecting method is proposed based on the consistency of logic, this method depends 
on the reliance on constraint, and combines with the identification of consistency toward logic. Our method extracts previous 
constraint of domain, back constraint of logic and expression of predicate, then filters candidates by applying search of 
intersecting basic blocks, and finally identifies opaque predicates through constraint solving. We designed a prototype and the 
evaluation indicates that our method could identify opaque predicates from malware accurately and effectively. 
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混淆 ， 应 用 的 混淆 方法 包括 动态 混淆 方法 和 静态 混淆 方法 。 常 
的 混淆 技术 有 不 透明 谓词 、 控 制 流 平展 B、 基 本 块 分 裂 、 别 名 
昆 淆 等 。 其 中 ， 基 于 不 透明 谓词 的 代码 混淆 技术 具有 较 小 的 体 
和 封闭 的 逻辑 ， 相 较 于 其 他 的 混淆 方法 ， 更 为 轻 量 和 稳定 。 


0 引言 


不 透明 谓词 是 一 类 取 值 恒定 的 约束 表达 式 ， 其 取 值 在 作用 
域 条 件 下 将 始终 保持 不 变 ， 这 种 特性 保证 了 不 透明 谓词 较 强 的 
反 分 析 能 力 ， 所 以 被 广泛 应 用 在 各 种 抗 逆向 工程 由 的 实践 中 。 7 年 ，Collberg 中 首次 提出 不 透明 谓词 的 概念 以 来 ， 不 透 
在 约束 表达 式 的 生成 中 ， 不 透明 谓词 使 用 复杂 的 数学 算法 进行 有 谓词 已 经 被 广泛 应 用 在 程序 开发 应 用 的 多 种 领域 ， 包 括 软件 
精巧 的 设计 ， 以 获取 单 向 复杂 的 表达 式 ， 常 用 的 方法 包括 有 代 ”多 样 化 、 恶意 代码 变形 、 软件 水 印 外 等 。 尤其 是 在 恶意 代码 混淆 
数 定理 、 数 学 剩余 理论 等 。 这 种 单 向 复杂 的 逻辑 特点 ， 保 证 了 领域 ， 不 透明 谓词 通过 简单 的 插入 判定 式 ， 引 入 元 余 的 或 者 不 
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不 透明 谓词 的 判断 值 对 于 使 用 者 而 言 是 可 知 的 ， 而 对 于 分 析 对 可 达 的 分 支 路 径 ， 复 杂 化 程序 控制 流 图 ， 达 到 隐藏 恶意 行为 的 
象 ， 则 是 无 法 简单 判定 的 中， 这 也 是 不 透明 谓词 的 实践 应 用 原 目的 。 
里 。 随 着 在 恶意 代码 中 的 不 断 多 样 化 和 复杂 化 应 用 ， 对 不 透明 


代码 混淆 技术 用 于 保护 程序 关键 位 置 的 代码 ， 通 过 对 数据 胃 词 的 检测 获得 了 越 来 越 多 的 关注 。Collberg 首先 提出 了 不 透 
和 届 辑 的 变换 ， 来 掩盖 真实 的 程序 执行 流程 ， 以 抵御 对 程序 上 明 谓 词 的 检测 方法 内， 将 在 大 量 测 试 例 运行 下 保持 恒定 的 谓词 
道 向 分 析 。 代 码 混淆 包括 了 对 源 代码 的 混淆 和 对 二 进 制 代码 的 。 表达 式 判 定 为 不 透明 谓词 ， 该 方法 采用 的 全 程序 遍历 的 思想 耗 
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时 较 大 。Preda 通过 抽象 解释 方法 搜寻 不 透明 谓词 的 代码 特征 
中 ， 而 后 对 符合 条 件 的 位 置 进行 鉴别 ， 该 方法 只 能 适用 于 已 知 
模式 的 不 透明 谓词 检测 。Madou 通过 Fuzzing 的 方法 对 谓词 的 
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: 基于 逻辑 一 致 性 判定 的 广义 不 透明 谓词 检测 方法 


乍 期 刊 


词 的 不 透明 性 是 由 跳 转 位 
约束 取 值 区 间 决 定 的。 在 此 
值 为 非 固定 ， 但 是 如 若 在 之 


的 谓词 逻辑 表达 式 和 表达 式 参 数 的 


以 约束 表达 式 x2-9>0 为 例 ， 


前 的 执行 中 ， 


其 判定 


己 对 x 的 取 值 限制 了 


恒 值 性 进行 测定 , 也 存在 时 间 消 耗 大 的 缺点 。 Saleh 提出 了 通过 
检查 在 反 汇编 的 代码 中 存在 的 交错 状 的 指令 结构 来 检测 不 透明 
谓词 的 方法 中, 但 该 方法 抗 干扰 能 力 较 差 , 会 产生 很 多 的 误 报 。 
相对 1 Bardin 提出 的 有 界 前 淹 方 法 在 不 透明 谓词 的 检测 中 


Bs 


更 具有 通用 性 外， 该 方法 使 用 动态 符号 执行 的 方法 ， 以 约束 求 
解 判定 谓词 表达 式 的 恒 值 特征 。JiangMing 同样 提出 了 基于 符 
号 执行 的 不 透明 谓词 判定 方法 ， 并 提出 了 动态 不 透明 谓词 的 概 


念 趾 ， 但 该 谓词 实际 上 是 狭义 不 透明 谓词 的 特殊 表示 。 
由 上 可 见 ， 当 前 不 透明 谓词 判别 方法 主要 集中 于 对 单个 逻 
辑 判断 式 取 值 恒定 的 检测 ， 对 于 复杂 的 逻辑 结构 群 ， 并 
有 效 的 检测 方法 .鉴于 此 , 本文 分 析 了 不 透明 谓词 的 主要 机 理 ， 
提炼 和 狭义 不 透明 谓词 和 广义 不 透明 谓词 两 种 形式 ， 并 重点 针 
对 广义 不 透明 谓词 ， 提 出 了 对 应 的 检测 方法 。 主 要 的 技术 
是 结合 约束 求解 技术 ， 确 定 并 分 析 表 达 式 的 逻辑 一 致 性 ， 该 
法 将 有 效 的 拓展 不 透明 谓词 的 检测 领域 ， 更 好 的 简化 代码 控制 
流 图 ， 更 为 高 效 的 还 原 出 恶意 代码 的 执行 逻辑 。 
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1 ”狭义 不 透明 谓词 和 广义 不 透明 谓词 


作为 一 种 精心 构造 的 约束 表达 式 ， 不 透明 谓词 P 的 表达 式 
值 输出 OOP) 一 般 为 固定 常量 值 ， 但 是 在 某 些 条 件 下 ， 不 透明 谓 
词 的 输出 为 逻辑 表达 式 。 以 图 1 为 例 ， 在 左 侧 的 判断 约束 表达 
式 中 ，7y>-1 关 x? 的 判定 取 值 始终 为 Trme， 在 此 条 件 下 跳 转 执行 
的 路 径 将 恒定 为 Insl1。 而 在 右 侧 的 判断 约束 表达 式 中 ，x+y==0 
的 判定 取 值 可 为 True， 亦 可 为 False， 当 跳 转 至 True 路 径 时 ， 
执行 的 逻辑 为 z==2x， 当 跳 转 至 False 路 径 时 ,执行 的 逻辑 为 z=- 
2y, 在 此 逻辑 结构 的 条 件 下 , 进行 值 域 取 值 分 析 , 在 True 路 径 ， 
条 件 约束 为 xty==0 时 , 等 式 x=y 成 立 , 则 
故 在 True 路 径 ， 执 行 逻 辑 依旧 为 z=-2y， 可 得 在 当前 逻辑 约束 
群 结构 中 ， 路 径 的 跳 转 并 未 改变 代码 的 执行 逻辑 。 本 文 将 这 类 
在 执行 逻辑 无 区 别 的 不 透明 谓词 定义 为 广义 的 不 透明 谓词 ， 而 
将 传统 的 不 透明 谓词 定义 为 狭义 不 透明 谓词 ， 二 者 在 差异 在 于 
约束 表达 式 的 输出 不 同 。 
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表达 式 z=2x=-2y， 


图 1 狭义 不 透 


明 谓 词 和 广义 不 透明 谓词 的 跳 转 图 示 


a) 狭 义 不 透 明 谓词 。 狭 义 不 透 明 谓词 是 一 类 侧重 于 取 值 不 
透明 性 的 谓词 表达 式 。 狭 义 不 透 明 谓词 的 表达 式 取 值 将 始终 恒 
定 为 固定 值 ， 该 取 值 的 固定 特性 用 以 保证 程序 能 按照 开发 者 指 
定 的 路 径 执 行 ， 而 不 会 去 执行 另 一 条 误导 路 径 。 狭 义 不 透明 谓 


认定 其 不 透明 性 。 


b) 广 义 不 透 明 谓词 。 广 义 不 透 明 谓 


定义 域 ， 如 x>3， 则 该 谓词 表达 式 的 取 值 为 将 为 1 


吾 定 值 ， 即 可 


四 词 是 一 类 侧重 于 逻辑 不 


透明 性 的 谓词 表达 式 。 广 义 不 透 明 谓词 的 表达 式 取 值 并 非 为 恒 


定 值 ， 但 是 结合 该 谓词 表达 
整个 逻辑 结构 群 的 行为 逻辑 


式 控制 判定 跳 转 后 续 的 执行 逻辑 ， 


具有 恒定 的 特性 。 广 义 不 透 明 谓 词 


的 不 透明 性 是 由 跳 转 位 置 的 
路 径 上 的 逻辑 表达 式 决定 的 。 
对 比 发 现 ， 狭 义 不 透 明 谓 


和 前 置 的 表达 式 定义 域 约束 ; 


不 单 来 自 于 表达 式 本 身 和 前 
于 后 趋 的 跳 转 执行 逻辑 。 所 


逻辑 表达 式 、 表 达 式 参数 以 及 跳 转 


谓词 


以 对 


于 狭义 不 透明 谓词 的 交 


Cy 


词 


约束 ， 


的 恒 值 特 性 来 自 于 表达 式 本 身 
而 广义 不 透明 谓词 
置 的 表达 式 定义 域 


的 恒 逻 辑 特性 
强 相关 


广义 不 透明 谓 
需要 扩展 对 后 趋 约束 的 分 析 。 


词 的 判定 ， 


相 较 


表 1 典型 的 广义 不 透明 谓词 
谓词 表达 式 前 置 条 件 路 径 分 支 后 趋 路 径 罗 辑 约束 区 间 
True yxX-2x 0<x<2 
和 -2X<2 none 
False =x -2x Xx>2Vx<0 
Gry)={(0,3);(0,2); 
True xyty 
xty<3 0<x<y (1,2):(0,1)} 
False 2x+y? y>3A0<x<y 
True y=x/7 X={0,1,4,9,16,25} 
Xx== 忆 -5<k<5 
False y=x/8 Xx{0,1,4,9,16,25} 
True (x+2)%3 X=3k+2 
XxX%3==2 none 
False =(x+2)%3 X=3k+1Vx=3k 
2 ”广义 不 透明 谓词 的 判定 方法 
针对 狭义 不 透明 谓词 的 判定 方法 已 经 有 很 多 种 ， 一 般 常 采 
用 的 是 约束 求解 站、 抽象 解释 四 的 基本 方法 ,其 中 约束 求解 是 


通过 判定 取 值 的 固定 特 4 


断 不 透明 谓词 的 构造 数学 依 
明 谓 词 的 判定 同样 可 以 使 ) 
需要 有 较为 丰富 的 先 验 知识 
透明 谓词 ， 所 以 在 本 文中 ， 
解 技术 。 


设 定 待 分 析 的 程序 了 中 某 位 
当 M(Y) 取 值 为 True 时 ， 执 行路 径 BT， 
当 M(Yy) 取 值 为 False 时 ， 将 执行 路 径 BE， 


的 取 值 为 MV)， 

的 执行 逻辑 为 £7， 

后 趋 的 执行 逻辑 为 Lf。 
谓词 逻辑 表达 式 y， 为 


D(O) 5 D(y) oes } 


征 来 检测 不 透明 性 ， 抽 象 解释 是 通过 判 
据 来 确定 不 透明 性 


。 面 向 广义 不 透 


j 以 上 两 种 技术 ， 但 是 ; 


由 象 解释 技术 


积累 ， 一 般 ) 


为 提升 通用 性 ， 


于 检测 已 知 类 型 的 不 
< 用 的 是 约束 求 


将 采 


存在 谓词 逻辑 表达 式 vy， 


Vy 
后 趋 


变量 的 


的 函数 表达 式 ， 
=fa, PB,y...)， 其 中 a, p,y... 为 y 中 的 变量 ， 根 扩 
量 0,p,y... 均 有 定义 域 , 以 D 表示 变量 定义 域 的 集合 , D={D(w)， 
如 在 图 1 例 中 Vy 为 Rx,y)， 即 为 xty==0， 


居 前 


可 以 表示 为 y 
约束 ， 变 
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录用 稿 史 大 伟 ， 等 : 基于 逻辑 一 致 性 判定 的 广义 不 黎明 谓词 检测 方法 
x yy 为 W 中 的 变量 ， 定 义 域 集合 D 表示 为 {Z,Z}，Z 为 全 休整 ” 3.1 前 置 条 件 约束 的 提取 
数 集合 。 谓词 的 前 置 条件 约 束 限定 了 谓词 表达 式 判定 当中 的 变量 定 
在 当前 定义 下 ， 判 定 一 个 不 透明 谓词 为 狭义 不 透明 谓词 的 。” 义 域 。 不 充分 的 谓词 变量 定义 域 的 信息 获取 ， 会 导致 谓词 判定 
判定 方法 为 中 定义 域 过 大 ， 从 而 使 得 不 透明 谓词 判定 条 件 的 不 满足 ， 从 而 
wy ED MEC，C-TueorFalse (1) 出 现 漏 报 的 情况 。 例 如 表 1 中 的 第 二 条 ， 如 果 未 能 准确 的 判别 
而 为 广义 不 透明 谓词 的 判定 方法 为 出 存在 0<xsy 的 前 置 条 件 约束 , 则 :ob2 和 2xb2 在 当前 定义 域 
i A DD, (2) 取 值 区 间 中 ，x+y<3 谓词 表达 式 的 判定 为 非 不 透明 。 
在 该 判定 方法 中 ， 可 见 任 取 变 量 值 (该 变量 不 局 限于 中 对 前 置 条件 约 束 的 提取 需要 分 析 整 个 谓词 位 置 之 前 执行 的 
涉及 的 变量 ), 在 判定 并 完成 路 径 跳 转 后 , 后 续 的 执行 逻辑 都 相 。 ”所 有 指令 ， 从 而 去 全 面 的 判定 定义 域 的 区 间 。 然 而 前 置 所 有 指 
同 ， 这 反映 出 路 径 跳 转 判定 的 约束 表达 式 y 的 取 值 对 程序 的 执 。” 令 的 分 析 ， 消 耗 的 时 间 过 大 ， 从 而 极 大 影响 不 透明 谓词 的 判定 


行路 径 有 影响 ， 但 是 对 程序 的 执行 逻辑 无 影响 ， 这 也 反映 了 不 。 效率 。 本 文 将 采用 基本 块 的 前 置 条 件 约束 判定 方法 外 ， 这 是 
透明 谓词 的 元 余 性 ， 当 然 这 也 是 混淆 方法 需要 达到 的 效果 。 根据 程序 执行 逻辑 和 编译 器 优化 的 特点 选 定 的 方法 ， 即 在 程序 
式 (2) 进一步 推导 , 将 表达 式 转换 与 y 相关 联 的 判定 方 。 代码 中 ， 关 联 性 强 的 变量 总 是 在 连续 的 块 区 间 内 进行 操作 。 根 
法 ,首先 将 y 的 判定 值 取 值 区 间 表 示 出 来 ， 由 于 y 是 关于 变量 。” 据 文 章 的 实验 ， 选 定 的 回溯 基本 块 长 度 K 为 16 至 24 间 为 最 
o 7… 的 函数 表达 式 ， 则 计算 y 取 值 的 定义 域 约束 。 若 只 考虑 。 佳 ， 在 本 文 的 不 透明 谓词 检测 中 ， 将 以 此 为 优选 参数 。 

公式 Vy， 当 W=true 时 ， 获 取 y 取 值 为 True 的 定义 域 约束 为 d'， 
同样 ， 计 算出 y 取 值 为 False 的 定义 域 约束 为 df。 此 时 ， 可 获 
取 在 不 透明 位 置 ， 跳 转 至 路 径 BT 和 BF 的 定义 域 约束 为 基于 谓 
词 逻 辑 表 达 式 y 的 约束 和 前 置 定义 域 约束 的 交集 : 


pb,y...E DNdT jump to BT (3) 
0, pb, 7...€E DNdF jump to Br 
要 保证 在 两 条 跳 转 路 径 上 的 执行 逻辑 一 致 ， 则 不 透明 谓词 


必须 满足 条 件 : 
iup yeDnd se ywA7 EDndr 
if a, B,y...€ DndE “iti .E DNdr LLT 


本 图 2 有 界 区 基本 块 前 置 条 件 约束 前 漳 示意 加 

该 条 件 的 含义 是 ， 当 在 跳 转 目的 路 径 为 B7 时 ,在 当前 约束 
条 件 下 ， 程 序 执行 逻辑 [7 等 同 于 执行 路 径 CF; 或 者 当 跳 转 目 在 谓词 表达 式 前 置 条 件 约束 的 提取 过 程 为 : 
的 路 径 为 BF 时 ， 在 当前 约束 条 件 下 ， 程 序 执行 逻辑 Lr 等 同 于 a) 从 选 定 的 谓词 出 发 , 前 向 搜寻 当前 基本 块 的 前 置 基 本 块 
执行 路 径 Lr， 此 时 可 判定 当 谓 词 为 不 透明 。 举 例 说 明 ， 在 图 1 ” 节点， 并 形成 长 度 为 K 的 前 置 节点 链 。 在 图 2 中 ， 每 个 圆 形 节 
例 中 , 当 y 中 的 变量 x,y 满足 约束 xty==0 时 ,将 执行 路 径 BT， ”点 表示 一 个 基本 块 , 其 树 型 结构 是 执行 的 控制 流 图 , 其 中 M 节 
这 条 路 径 条 件 下 的 执行 逻辑 为 LT, 即 为 一 2x, 对 比 执行 逻辑 Ar， 点 的 前 置 节 点 链 为 MJ 一 GE 一 B 一 A……。 
二 -2y, 可 以 发 现在 当前 条 件 约束 Dngr: {rEZ weZ,x=-y} 下， 执 b) 从 获取 的 前 置 节点 链 中 ， 提 取 关 联 谓词 表达 式 y 中 变 
行 逻辑 LT 与 Lr 具有 一 致 性 ， 故 可 判定 当前 选 定 的 谓词 为 广义 。 量 a,p,y… 的 操作 指令 ， 并 提取 指令 的 语义 。 
不 透明 谓词 。 c) 对 变量 的 前 置 节点 链 中 的 指令 语义 进行 公式 化 表示 , 并 


在 上 述 实例 的 分 析 中 ， 可 计算 发 现 ， 虽 然 满足 不 透明 谓词 ”化 简 ， 获 取 变 量 的 前 置 条 件 约束 。 


判定 的 第 一 部 分 条 件 ， 但 是 当 执 行路 径 BF 时 ， 执 行 逻辑 LT: 3.2 ”后 趋 逻辑 约束 的 提取 

z=-2y 在 条 件 约束 DndF: {XEZ ,yEZ, x 天 -他 下， 与 执行 逻辑 应 RN 后 的 真 值 路 径 逻辑 LT 

并 不 具有 一 致 性 。 所 以 在 对 广义 不 透明 谓词 的 判定 中 ， 只 需 遵 。” 和 假 值 路 径 逻 辑 Lf。 与 前 置 条 件 约束 类 似 ， 对 于 后 趋 逻 辑 约束 

循 二 者 条 件 其 一 即 可 。 的 提取 也 存在 提取 区 间 过 长 的 问题 ， 要 想 完 整 的 提取 出 两 条 路 
径 的 后 趋 约束 ， 必 须 将 从 谓词 位 置 至 程序 结束 位 置 的 所 有 执行 


3 ”广义 不 透明 谓词 的 检测 过 程 


代码 逻辑 均 列 入 分 析 。 本 文 基于 不 透明 谓词 的 插入 方法 ， 结 合 

根据 广义 不 透明 谓词 的 判定 方法 ， 在 判定 中 的 三 个 要 素 为 ”恶意 代码 中 ， 对 不 透明 谓词 插入 的 用 途 分 析 ， 采 用 了 后 向 基本 

前 置 条件 、 后 趋 逻辑 、 谓 词 表 达 式 。 本 章 将 从 广义 不 透明 谓词 。” 块 有 界 条 件 下 后 趋 逻辑 约束 提取 方法 。 方 法 的 提出 基于 以 下 两 
的 判定 三 要 素 内 容 开 展 提 取 和 分 析 。 点 考虑 ; 
a) 在 恶意 代码 中 , 广义 不 透明 谓词 的 插入 


以 生成 干扰 路 


i 
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径 ， 但 是 从 代码 量 的 角度 ， 路 径 C 和 路 径 如 一定 会 有 交汇 
以 达到 路 径 干 扰 的 功能 ， 而 不 是 全 路 径 元 余 。 

b) 对 于 广义 不 透明 谓词 的 后 趋 执行 路 径 , 为 保证 执行 逻辑 
的 一 致 性 ， 在 后 趋 执行 过 程 中 ， 较 少 有 分 支 节 点 ， 而 是 采用 直 
接 跳 转 的 方式 ， 如 果 存 在 条 件 跳 转 ， 则 极 大 可 能 为 锋 义 不 透明 


谓词 。 


个 典型 的 后 趋 执行 代码 的 控制 流 图 结构 表示 如 图 3 所 示 。 


Bo > 


> Bi >| Bi? —> … 一 站 Bl 


图 3 典型 后 趋 执行 代码 控制 流 


结构 


在 图 中 ,基本 块 以 B, 表 示 , 执行 分 支 路径 分 别 为 3BI 和 BF。 
其 中 在 Bai 中 分 支 路 径 Bi 为 狭义 不 透明 谓词 。 两 条 分 支 路 径 
BT 和 BF 在 执行 少量 指令 后 相交 并 汇 成 同一 条 执行 路 径 。 本 文 
提取 的 即 是 在 B 和 Bx 间 的 在 87 和 Br 路 径 上 的 执行 逻辑 。 在 
后 趋 逻辑 约束 的 提取 中 ， 同 样 设 定 为 L 基本 块 长 度 的 有 界 基 本 
块 分 析 方 法 ， 步 又 如 下 : 

a) 从 谓词 跳 转 位 置 开 始 ， 搜 寻 分 支 路 径 B' 和 BT, 在 工 基 
本 块 长度 内 寻找 两 条 路 径 的 相交 节点 ， 若 未 找到 相交 节点 ， 则 
判定 非 不 透明 ， 若 找到 ， 进 入 下 一 步 又 。 
b) 在 谓词 所 在 基本 块 B 和 相交 节点 基本 块 Bt 间 分 析 分 析 
两 条 路 径 上 的 条 件 跳 转 节点 ,判定 跳 转 节点 的 狭义 不 透明 特性 ， 
若 判定 存在 非 不 透明 节点 ， 则 判定 当前 谓词 逻辑 为 非 广义 不 透 
明 的 ， 若 无 非 不 透明 节点 ， 进 入 下 一 步 。 
c) 满足 以 上 条 件 的 路 径 分 支 ,分 别 从 3I 和 BF 中 提取 基本 
块 节点 B 和 Brx 间 逻辑 表达 式 。 
3.3 ”基于 约束 求解 的 不 透明 性 判定 

对 于 不 透明 谓词 的 判定 ， 是 判断 谓词 的 恒 值 性 ， 对 于 广义 
不 透明 谓词 ， 需 要 判断 的 是 执行 逻辑 的 恒定 性 。 根 据 第 三 章 的 
论 分 析 ， 主 要 的 判定 思想 是 证 明 在 当前 值 域 条 件 下 ， 分 支 路 
径 3I 和 分 支 路 径 3 上 的 逻辑 可 以 统一 表示 为 某 一 条 路 径 上 的 
执行 逻辑 。 例 如 在 第 三 章 的 实例 分 析 中 ， 该 不 透明 谓词 的 后 趋 
逻辑 可 以 统一 表示 为 二 -27， 不 管 选择 哪 条 分 支 路 径 , 执行 该 逻 
辑 表达 式 ， 均 能 获得 一 致 的 取 值 。 

约束 求解 理论 用 以 判定 路 径 可 达 性 并 生成 测试 用 例 ， 主 要 
依赖 于 可 满足 性 模 理论 SMTH09。 作为 符号 执行 的 基础 ,约束 求 
解 的 性 能 直接 影响 了 符号 执行 的 效率 。 约 束 求解 的 核心 问题 是 
将 路 径 条 件 中 的 算术 约束 条 件 转换 为 基本 的 求解 器 问题 。 本 文 
采用 的 基于 约束 求解 的 不 透明 谓词 判定 方法 即 是 将 式 (2)~(4) 中 
的 条 件 约束 转换 为 可 用 于 求解 的 问题 ， 具 体 的 转换 方法 是 : 找 
出 路 径 3I 和 路 径 BF 中 相 异 的 逻辑 表达 式 FT 和 FF， 判定 以 下 
表达 式 是 否 成 立 : 

va, b,y...€E DNdT FT=TFr | Va, b,y...€ DNdr FI=TF 

判定 值 为 真 ， 则 表示 具有 不 透明 性 ， 为 假 ， 则 表示 不 具备 


hn 
Tt 
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透明 性 。 进 
判定 是 否 存在 不 满足 的 解 集 ， 故 判定 表达 式 重 写 为 : 

(30,p,y...€ DNdT THTF )g&(30, pb,y...E DNdr TFF ) 
判定 值 为 真 ， 表 示 不 具有 透明 性 ， 而 判定 值 为 假 ， 则 具有 
透明 性 。 同 样 以 图 1 中 的 谓词 逻辑 作为 判定 实例 。 判 定 的 表达 
式 为 : 


(3x+y==0, 2x#-2y )&&(3xt+yz0, 2xz-2y ) 
公式 的 判定 值 为 假 ， 可 以 确定 该 谓词 逻辑 结构 群 


不 透明 性 。 
3.4 广义 不 透明 谓词 的 判定 算法 


综 上 所 述 ， 本 文 提出 基于 约束 求解 的 广义 不 透明 谓词 判定 
方法 : 

Input: CFG: 程序 P 的 控制 流 图 

Output: ”BiwF: 若 存 在 广义 不 透明 谓词 , 则 返回 该 谓词 所 
在 的 基本 块 ， 若 不 存在 ， 返 回 False 


/广度 优先 搜索 控制 流 


1 Bi; = breadthSearch (CFG) 
2 if exist conditional jump in Bi /提取 条 件 跳 转 
3 for p=1:L 
4 for q=1:L 
3 if (followingBlock(B，， 
followingBlock(B;, gq,False)) 
/判定 是 否 存在 相交 基本 块 
0 L¢ extractLogic(B; p, True); 
/提取 跳 转 True 路 径 上 Bi 至 相交 基本 块 间 的 逻辑 表达 式 
所 L'¢ extractLogic(B; p, False); 
// 提 取 跳 转 False 路 径 上 Bi 至 相交 基本 块 间 的 逻辑 表达 式 
8 D «~ extractDomain(B;, K); 
/提取 前 置 定义 域 区 间 
9 V 二 extractFormula(B)); 
/提取 条 件 跳 转 对 应 的 谓词 表达 式 
10 ifl\ constraintSolving(L, £', D, W)); 
// 依 照 判 定式 约束 求解 ， 并 返回 结果 


11 return Bi; 


p,True)== 


> 


12 else return False; 

13 endif 

14 endif 

15 endfor 

16 endfor 

17 return False 

18 endif 

在 该 算法 中 ,采用 的 是 广度 优先 搜索 算法 对 程序 P 进行 基 
本 块 遍历 11， 同时 选用 后 趋 约束 优先 于 前 置 约束 的 判定 方式 ， 
这 是 由 于 后 趋 约束 判定 算法 需要 进行 简单 的 相交 基本 块 的 搜寻 ， 
能 较 快 速 的 进行 对 候选 谓词 的 得 减 。 
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原型 系统 设计 


基于 对 广义 不 透明 谓词 的 关 


定 方法 和 检测 过 程 ， 本 文 设计 


史 大 伟 ， 等 : 基于 逻辑 一 致 性 判 


. 


hi 
定 


naX iv 合作 


的 广 


期 乔 


不 透明 谓词 检测 方法 


度 分 别 为 16~24 以 及 12~20; 约束 求解 谓词 判定 使 用 的 约束 求 


解 器 为 
基 


Z303]。 
于 上 述 方法 实现 


为 基础 


的 控制 流 图 提取 


的 广义 不 透明 谓词 检测 系统 中 , 以 Angr 


方法 ， 能 够 对 


在 代码 分 析 中 具有 普 适 性 ， 


在 固定 


了 基于 约束 求解 的 广义 不 透明 谓词 判定 系统 。 该 系统 的 主要 构 
成 包括 : 解密 脱 壳 模块 ， 静 态 分 析 模 块 ， 谓 词 判定 模块 ， 其 中 
谓词 判定 模块 是 不 透明 谓词 检测 的 主要 功能 部 件 ， 包 括 了 前 置 
条 件 约束 提取 组 件 ， 后 趋 逻辑 约束 提炼 组 件 ， 约 束 求解 谓词 判 
定 组 件 。 组 件 的 通联 关系 和 运行 流程 如 4 图 所 示 。 
国 a 谓词 判定 模块 
a \ 后 趋 约 | 前 趋 约 | 约束 求 
解密 | ”静态 束 逻 辑 |) 束 条 件 |， 解 调 记 
过 E> 分 析 提取 | ， 提 炼 | ”判定 
| 模块 | 模块 | 
图 4 广义 不 透明 谓词 检测 系统 的 构成 
实验 的 开展 首先 是 通过 解密 脱 壳 模块 和 静态 分 析 模 块 将 代 


码 进行 预 处 理 ， 


以 还 原 


出 代码 的 所 
OllyBone 工具 , 而 静态 分 析 模块 是 采用 的 
Angr03 代 码 分 析 框 架 实 现 .Angr 是 一 款 开 源 的 二 进 制 分 析 工 具 ， 


行内 容 。 解 密 脱 壳 模 块 采 用 


图 的 恢复 方式 ， 包 括 CFGFast 和 


GAccurate， 其 中 CFGFast 主要 采用 函数 识别 、 递归 


的 QuickUnpack 以 及 

能 够 提供 两 种 控制 流 

CF 

接吻 

的 基础 上 应 用 后 向 切片 、 

在 本 文 的 实验 中 ， 将 选用 
流 图 。 


分 解 、 间 


kt 转 解析 的 技术 实现 CFG 恢复 ，CFGAccurate 则 在 CFGFast 
住 的 CFG。 


符号 执行 等 方法 来 提取 更 精 ;# 


CFGAccurate 方法 来 获取 代码 的 控制 


在 广义 不 透明 谓词 检测 中 ， 谓 词 判定 模块 中 前 置 条 件 约束 


于 有 界 约束 


由 上 二 


代码 


的 应 用 
为 


虔 。 


对 标准 


在 


T 


应 | 


不 透明 


GHz 处 


谓词 的 识别 中 。 


4.2 实验 验证 分 析 


从 


耗 将 集中 于 三 部 分 ， 一 是 


二 进 制 的 代码 进行 处 理 ， 
且 静 态 的 分 析 方 法 能 够 提高 分 析 
提取 的 方法 可 以 将 不 透明 性 的 尖 
区 间 内 ， 避 免 了 在 超大 程序 中 过 长 的 全 代码 分 析 耗 
时 。 所 以 本 系统 对 程序 的 规模 和 语言 并 无 特殊 要 求 ， 具 


| 定 限制 


9 较 好 


效 验证 对 广义 不 透明 谓词 的 检测 效率 ， 本 文 将 系统 
广义 不 透明 谓词 的 识别 和 对 实际 混淆 程序 中 广义 


系统 工作 的 基本 软 硬 件 环境 为 4 核 3.1 


里 器 ，8 GB 内 存 ，Ubuntu 12.04 操作 系统 。 


基于 不 透明 谓词 


的 判定 方法 中 


E 后 趋 逻辑 约束 的 提取 ， 


J 以 发 现 ， 主 要 的 时 间 消 


二 是 对 前 置 


条 件 约束 的 提取 ， 三 是 约束 求解 。 其 中 约束 求解 部 分 的 耗 时 最 


为 不 可 控 , 对 于 约束 求解 , 常会 出 现 不 可 解 的 情 


讽 ， 在 本 文中 》 


结合 计算 的 精确 和 效率 ， 将 约束 求解 的 时 间 限 制 为 5s， 以 确保 


不 会 出 


1) 


现 死 解 的 状态 。 


对 自生 成 测试 程序 的 检测 


实 
分 析 ， 


验 中 首先 针对 


广义 不 透明 谓词 


谓 


代 


词 
词 样 本 > 计 生 


生成 的 包含 广义 不 透 


明 谓 词 的 程序 进行 


将 采用 的 是 本 文 的 示例 程序 和 表 一 中 不 


成 五 个 测试 项 。 


码 无 须 进 


ss 


图 并 开 


始 谓词 判定 。 对 


五 个 


在 对 自生 成 程序 的 况 


了 解密 脱 壳 ， 直 接 进行 静态 分 析 ， 获 取 控 制 流 
自生 成 程序 的 测试 结果 记录 如 


提取 和 后 趋 逻 辑 约 束 提取 采用 的 K 和 工 基本 块 有 界限 制 的 长 
表 2 对 自生 成 程序 的 广义 不 透明 谓词 检测 结果 
前 置 约束 后 趋 约 束 平均 约束 测试 总 耗 时 
谓词 逻辑 程序 规模 检 出 数 误 报 / 漏 
提取 时 间 (ms) ”提取 时 间 (ms) 求解 时 间 (ms) 平均 值 (ms) 
xty==0 23KB 39~48 5~8 19 1 0/0 211 
-2x<2 27KB 38~54 27~33 34 1 0/0 348 
x+ty<3 23KB 28~32 29~62 130 1 0/0 942 
X== 尼 24KB 96~110 9~20 65 1 0/0 762 
x%3==2 31KB 49~52 22~29 3224 1 0/0 4003 
测试 结果 可 见 ， 在 广义 不 透明 谓词 的 检测 中 ， 本 文 设 当前 的 输入 分 为 两 部 分 , 一 部 分 驱使 程序 沿路 径 BT 执行 , 另 
计 的 系统 能 够 有 效 的 检测 出 所 有 的 插入 的 广义 不 透明 谓词 ， 一 部 分 驱使 程序 沿路 径 3 执行 , 在 第 五 项 的 输入 分 类 中 ,两 
其 中 ， 五 次 测试 中 均 无 误 报 和 漏 报 。 在 系统 的 分 析 过 程 中 ， 个 驱使 执行 的 输入 集 都 比较 大 ， 进 行 约束 表达 式 求 解 时 ， 求 
随 着 采用 的 前 置 和 后 趋 的 约束 提取 基本 块 有 界限 制 ， 约 束 提 解 器 遍历 的 集合 空间 较 大 ， 这 就 导致 了 测试 消耗 明显 高 于 其 
取 时 间 略 有 波动 ， 但 震荡 范围 不 大 ， 在 所 有 的 测试 当中 ， 对 他 测试 项 。 总 体 看 来 ， 整 个 测试 的 耗 时 属于 可 接受 的 范围 。 
约束 的 提取 时 间 均 在 110ms 以 内 ， 提 取 的 时 间 消 耗 可 接受 。 2) 对 实例 恶意 代码 程序 的 检测 
主要 的 测试 时 间 差 距 是 在 约束 求解 部 分 ， 对 比 发 现 ， 第 五 项 为 了 更 好 的 验证 本 文 提出 的 基于 代码 逻辑 的 广义 不 透明 
测试 程序 的 约束 求解 时 间 消 耗 较 大 , 进一步 分 析 求 解 的 方法 ， 谓词 检测 方法 , 将 选用 多 型 恶意 代码 程序 样本 进行 实例 分 析 ， 


可 


以 发 现 ， 这 是 


于 根 和 


谓词 表达 式 和 前 置 条 件 约束 ， 会 将 


以 检验 方法 的 有 效 性 。 作 为 一 种 常 


的 代码 混淆 方法 ， 不 透 


201804.01421v1 


XIV: 


china 


Chinaxi jv 全 乍 期 刊 
录用 稿 史 大 伟 ， 等 : 基于 逻辑 一 致 性 判定 的 广义 不 透明 谓 词 检 测 方法 
明 谓 词 已 经 被 广泛 应 用 在 各 类 恶意 代码 中 。 在 此 , 文章 从 VX 性 ， 本 文选 用 的 样本 将 具有 对 应 的 源 代码 ， 或 者 有 详细 的 样 
Heavens 提供 的 恶意 代码 库 中 , 选取 了 10 款 较为 典型 的 恶意 本 分 析 报 告 ， 以 确保 能 进行 正确 性 比 对 。 测 试 的 结果 显示 在 
代码 样本 ， 这 些 样本 涵盖 了 病毒 、 木 马 、 后 门 、 蠕 虫 四 种 类 表 3 中 。 
型 的 多 型 变种 。 同 时 为 了 验证 检测 出 来 的 不 透明 谓词 的 正确 
表 3 对 典型 恶意 代码 样本 的 广义 不 透明 谓词 检测 结果 
样本 规模 狭义 广义 平均 单 次 约束 平均 单 次 约束 测试 耗 时 (s) 
类 型 误 报 漏 报 
类 别 (KB) OP OP 提取 时 间 (ms) 求解 时 间 (ms) 广义 广义 和 狭义 
Tefuss Virus 29 7 0 1/0 0/0 103 624 4.1 38.9 
Zmist Virus 30 13 1 0/0 1/0 76 431 12.9 70.6 
Ranx Backdoor 53 8 3 0/1 0/0 210 1057 15.6 56.6 
RBot Backdoor 62 12 1 0/0 0/0 56 227 13.2 141.2 
Rub Trojan 20 5 1 0/0 0/0 70 199 20.2 312.3 
SalityStub ”Trojan 82 21 2 0/0 1/0 142 326 49.4 410.0 
Reper Trojan 38 5 0 0/0 0/0 91 514 16.7 221.8 
Netsky Worm 26 11 0 2/0 0/0 127 1314 6.1 97.9 
Klez Worm 43 12 1 0/0 0/0 69 480 9.0 79.1 
Mydoom Worm 41 7 2 0/0 0/0 90 891 18.3 -177.4 
狭义 不 透明 谓词 的 检测 与 广义 不 透明 谓词 的 检测 方法 基 5 ”结束 语 
本 一 致 ,也 是 采用 约束 求解 的 方法 判定 谓词 表达 式 的 恒 值 性 ， 
在 测试 中 ， 将 同样 进行 针对 性 的 检测 。 表 3 很 好 的 展示 了 对 不 透明 谓词 是 控制 流 图 混淆 的 关键 应 用 技术 ， 通 过 引入 
不 透明 谓词 的 检测 结果 和 检测 耗 时 ， 其 中 第 四 列 和 第 五 列 标 多 余 的 分 支 路 径 实现 对 程序 分 析 的 干扰， 并 作为 一 种 重要 的 
明了 在 分 析 过 程 中 ， 检 测 出 的 狭义 不 透明 谓词 和 广义 不 透明 防 查 杀手 段 被 广泛 应 用 于 恶意 代码 的 生存 性 强化 中 。 广 义 不 
谓词 的 数量 ， 结 合 样 本 对 应 的 源 代码 或 分 析 报 告 ， 罗 列 出 检 透明 谓词 不 同 于 狭义 不 透明 谓词 ， 其 恒定 不 变 的 属性 由 值 恒 
测 中 出 现 的 误 报 和 漏 报 不 透明 谓词 数目 ， 并 在 第 八 列 和 第 九 定 扩展 为 逻辑 恒定 ， 具 有 更 强 的 抵御 逆向 分 析 的 能 力 。 本 文 
列 中 ， 展 示 了 平均 单 次 约束 提取 的 时 间 和 平均 单 次 约束 求解 分 析 了 广义 不 透明 谓词 的 特点 ， 提 取 了 广义 不 透明 谓词 中 前 
的 时 间 ; 整个 测试 项 目的 耗 时 如 表 中 最 后 两 列 所 示 ， 其 中 包 置 条 件 约束 和 后 趋 逻辑 约束 ， 并 结合 谓词 表达 式 ， 综 合 检 测 
括 了 对 广义 不 透明 谓词 的 测试 耗 时 ， 以 及 对 广义 即 狭 义 不 透 广义 不 透明 谓词 。 其 中 为 了 提升 检测 的 效能 ， 采 用 了 基于 相 
明 谓 词 的 测试 耗 时 。 从 测试 的 结果 可 以 发 现 , 在 恶意 代码 中 ， 交 基 本 块 的 层次 化 初 得 方法， 减少 检测 实例 ， 对 于 通过 初 科 
均 多 次 插入 了 狭义 不 透明 谓词 ， 而 广义 不 透明 谓词 也 在 多 数 的 谓词 表达 式 ， 采 取 约 束 求解 的 方式 来 验证 谓词 逻辑 的 恒定 
恶意 代码 中 得 到 了 运用 。 进 一 步 分 析 ， 在 不 透明 谓词 的 检测 性 。 实 验 验 证 可 知 ， 本 文 提出 的 方法 能 快速 准确 的 检测 出 广 
中 ， 存 在 少量 的 误 报 和 漏 报 ， 这 主要 是 由 于 在 对 代码 的 静态 义 不 透 明 谓 词 ,并 在 实际 恶意 代码 检测 中 较 强 的 实用 性 。 
分 析 中 , 受到 了 平展 控制 流 , 自修 改 代码 [14] 等 混淆 手段 的 干 本 文 实现 的 不 透明 谓词 检测 系统 在 应 对 未 知 过， 以 及 和平 
扰 ， 使 得 对 不 透明 谓词 的 分 析 中 提取 的 信息 缺失 ， 从 而 导致 展 控 制 流 和 自修 改 代码 等 动态 代码 混淆 技术 时 ， 在 控制 流 图 
测试 中 的 遗漏 和 错误 。 由 测试 时 间 可 得 ， 当 进行 广义 不 透明 是 取 上 存在 一 定 困难 。 故 文章 下 一 步 将 采取 动态 分 析 [15] 的 
谓词 和 狭义 不 透明 谓词 的 同时 检测 时 ， 其 耗 时 明显 多 于 广义 手段 ， 规 避 加 密 加 壳 对 程序 分 析 的 影响 ， 进 一 步 提 升 本 文 检 
不 透明 谓词 的 单独 测试 时 间 ， 这 是 由 于 广义 不 透明 分 析 的 测 测 系统 在 应 对 动态 混淆 代码 时 的 检测 能 
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